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摘 要 : 针对 一 种 新 型 的 DDoS 攻击 一 链 路 泛 洪 攻击 (link-flooding attack，LFA) 难 以 检测 的 问题 ， 提 出 了 SDN 中 基 
于 MS-KNN(Mean Shift- K-NearestNeighbor) 7 4%) LFA 检测 方法 。 首 先 通过 搭建 SDN 实验 平台 ， 模 拟 LEFA 并 构建 
LFA 数据 集 ; 然后 利 Fe a Ee eee Mean Shift, MS) A xt LFA 数据 集 进 行 分 类 ; RE F] A K iÉ 
Ajs(K-nearestneighbor, KNN) AFAD R FAREA LFA 数据 。 实 验 结果 表明 ， 相 较 于 KNN 算法 ， 利 用 MS- 
KNN 不 仅 得 到 了 更 高 的 准确 率 ， 同 时 也 得 到 了 更 低 的 假 阳 性 率 。 
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LFA attack detection method based on MS-KNN algorithm in SDN 


Sun Wenyue, Wang Changda+ 
(School of Computer & Communication, Jiangsu University, Zhenjiang Jiangsu 212013, China) 


Abstract: Abstarct: To address the problem that a new type of DDoS attack, link-flooding attack (LFA), is difficult to detect, 
an LFA detection method based on MS-KNN (Mean Shift-K-NearestNeighbor) method in SDN is proposed. Firstly, this paper 
simulated LFA and constructed LFA dataset by building an SDN experiment platform; secondly, an improved weighted 
Euclidean distance mean shift (MS) algorithm was used to classify the LFA dataset; finally, the K-nearestneighbor (KNN) 
algorithm was used to determine whether LFA data were included in the classification results. The experimental results show 
that the use of MS-KNN not only obtains a higher accuracy rate but also a lower false positive rate compared with the KNN 
algorithm. 
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0 as 它 针 对 于 更 加 复杂 的 网 络 ， 即 同时 攻击 复杂 网 络 中 的 多 个 
a PR BERR. CAP UCT EAN AL EAD, 18 FA EE SSR aE 

分 布 式 拒绝 服务 攻击 (Distributed Denial of Service, DDoS) ”作为 目的 地 ， 并 通过 源 和 目的 地 之 间 的 通信 淹没 目标 链接 。 
是 网 络 安全 面临 的 最 严重 威胁 之 一 。 根 据 绿 盟 科 技 携手 中 国 为 了 确保 攻击 的 持久 性 ， 对 手 可 以 动态 地 改变 目标 链接 的 集 
电信 发 布 的 《2021 DDoS 攻击 态势 报告 》 叫 显示 ,DDoS 攻击 方 合 , 这 是 Coremelt 攻击 所 不 具备 的 。 发 动 一 个 Crossfire 攻击 
式 复杂 多 变 ， 令 人 防不胜防 ，2021 年 DDoS 混合 攻击 大 幅 增长 ， 有 4 个 步骤 : 1) 构 建 链接 地 图 ，2) 计 算 流 密度 并 选择 目标 链 


ean 


E2020 年 增长 了 80.8%。 近 年 来 ， 一 种 新 的 DDoS 攻击 方式 一 一 ” 接 进行 攻击 设置 ; 3) Val fin WLS iC Dc TE AES H hn ERE 
链 路 泛 洪 攻击 (link-flooding attack, LFA) 被 引入 P3， 这 种 攻击 可 4) 滚动 攻击 。 

以 有 效 地 切断 目标 单位 (如 大 学 校园 、 军 事 基 地 、 一 组 能 源 分 LFA 攻击 流量 容易 隐藏 在 正常 的 网 络 流量 中 ， 为 了 在 大 
配 站 ) 的 互联 网 连接 。 量 数据 中 发 现 LFA 攻击 ， 需 要 一 个 有 效 的 方法 。 

与 传统 的 DDoS 攻击 不 同 ，LFA 攻击 者 不 是 直接 向 目标 软件 定义 网 络 (Software-Defined Networking, SDN) 是 一 
服务 器 发 送 大 量 的 攻击 流量 , 而 是 通过 一 群 倪 偶 机 (或 僵尸 网 种 新 兴 的 网 络 范式 ， 以 粒度 、 灵 活性 和 弹性 为 特点 ， 为 防御 
络 ) 攻 击 一 个 特定 的 链 路 或 区 域 , 其 目的 是 阻 断 该 区 域内 目标 网 络 攻击 提供 了 新 的 思路 。SDN 通常 有 三 个 基本 特征 喇 : 
主机 与 外 界 网 络 的 连接 。 为 达到 此 目的 ， 倪 儒 机 会 向 目标 区 a) 控 制 平面 和 数据 平面 的 明确 分 离 ， 在 控制 平面 作出 转 
域 的 诱饵 服务 器 或 机 器 人 发 送 合法 、 低 速率 的 流量 。 当 流量 发 决策 。 
通过 连接 这 些 服务 器 的 关键 链 路 时 ， 目 标 链接 会 因 链 路 拥塞 b) 将 网 络 逻 辑 从 硬件 实现 抽象 到 软件 实现 。 

而 被 阻 断 。 这 种 类 型 攻击 最 显著 的 特点 是 ， 它 使 用 合法 和 低 c) 使 用 控制 器 或 网 络 操作 系统 因 ， 实 现 设备 的 转发 决策 。 
速率 的 流量 来 实现 重大 的 性 能 影响 , 从 而 使 其 特别 难以 检测 、 SDN 提供 了 一 种 主流 的 网 络 管理 架构 , 该 架构 摆脱 了 硬 
防御 外。 件 限制 ， 将 网 络 中 的 控制 平面 和 数据 平面 解 而。 控制 平面 可 

LFA 有 两 种 攻击 类 型 ,Coremelt 攻击 外 和 Crossfire 攻击 中。 以 通过 统一 的 接口 协议 (如 OpenFlow”, PENZT px) 2a ve 4 HE 
其 中 ，Coremelt 攻击 由 Studer 等 人 中 首先 提出 ， 它 定义 了 目 行 管理 ， 并 规划 转发 规则 来 定义 网 络 策略 ， 数 据 平面 根据 定 
标 链 路 ， 攻 击 者 使 用 一 组 相互 发 送 数据 的 倪 偶 机 来 淹没 目标 义 的 规则 进行 处 理 、 转 发 数据 包 等 工作 。 因 此 ， 与 传统 网 络 


链 路 。 发 动 一 个 Coremelt 攻击 有 3 个 步骤 : 1) 选 择 网 络 中 的 。” ”结构 相 比 , SDN 最 大 的 区 别 在 于 它 具 有 通过 操作 流 表 来 灵活 
核心 链 路 作为 目标 链 路 ，2) 确 定 哪些 倪 候 机 可 以 生成 穿越 定义 网 络 设备 的 转发 能 力 ， 其 转发 决策 是 基于 流 而 不 是 基于 
标 链接 的 流量 ;3) 在 步骤 1 中 确定 的 目标 链 路 上 发 送 流量 ， 目的 地 的 ， 并 由 数据 包 包头 中 的 字段 值 定 义 匹 配 标 准 和 一 组 
使 目标 链 路 过 载 .Crossfire 攻击 是 Coremelt 攻击 的 升级 版 本 ， ”操作 。 在 SDN 中 , 流 是 发 送 方 和 接收 方 设备 之 间 的 数据 包 序 
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录用 定稿 孙 文 悦 ， 等 : SDN 中 基于 MS-KNN 算法 的 LFA 攻击 检测 方法 第 39 卷 第 9 期 
列 。 这 种 基于 流 的 抽象 统一 了 各 种 类 型 网 络 设备 的 行为 ， 如 类 效果 有 显著 影响 。 


交换 机 、 路 由 器 、 防 火 墙 和 中 间 盒 由。 

SDN 有 几 个 优点 00， 如 全 网 视图 、 逻 辑 集中 控制 、 基 于 
软件 的 流量 分 析 和 转发 规则 的 动态 更 新 ， 这 些 都 可 以 用 于 更 
有 效 的 攻击 检测 。 因此 , SDN 架构 为 检测 LFA 提供 了 良好 的 


A 
I o 


本 文 为 了 解决 KNN 算法 针对 大 规模 网 络 数据 的 缺点 ， 

以 及 MS 算法 分 类 效果 不 明显 的 问题 ， 提 出 了 MS-KNN 算 
法 。 实 验 结果 表明 ，MS-KNN 不 仅 克 服 了 不 同类 型 数据 分 类 
效果 不 明显 的 问题 ， 同 时 也 大 大 减 小 了 计算 时 间 开 销 。 本 文 
的 主要 贡献 如 下 : a) 提 出 了 一 种 基于 加 权 欧 氏 距 离 的 MS R 


文献 [11] 提 出 了 RL-Shield 来 缓解 LFA。RL-Shield 利用 
Dirichlet 分 布 和 贝 叶 斯 统计 量 监测 源 IP 行为 , 并 使 用 hopby- 
hop 技术 连接 相关 的 节点 对 ， 通 过 频繁 地 改变 路 径 来 实现 检 
测 过 程 。 然 而 ， 该 方法 受 网 络 拓 扑 的 影响 ， 在 真实 网 络 中 可 
移植 性 差 。 文 献 [12] 提 出 了 一 种 基于 混合 SDN 的 新 机 制 
BALANCE. BALANCE 通过 使 用 基于 服务 的 混合 SDN, iti 
过 在 网 络 中 放置 节点 ， 使 得 控制 器 能 够 统计 网 络 中 所 有 链 路 
的 数据 ， 从 而 实现 拥塞 检测 。 然 而 ， 在 大 型 网 络 中 ， 统 计 所 
有 链 路 的 流量 使 得 计算 开销 非常 庞大 。 文 献 [13] 提 出 了 一 种 
新 型 LFA 防御 系统 LFADefender。 该 系统 基于 SDN 的 目标 
链 路 选择 算法 , 通过 SDN 控制 器 查看 全 局 视图 , 动态 地 跟踪 
网 络 中 的 流动 路 径 ， 利 用 探测 器 发 送 大量 实 时 探测 分 组 来 检 
测 链 路 拥塞 。 然而， 该 系统 反映 速度 不 快 ， 攻 击 者 可 能 在 防 
御 机 制 生效 之 前 更 快 地 改变 目标 链接 。 文 献 [14] 提 出 了 基于 


类 算法 ， 并 将 其 用 于 LFA 网 络 流量 的 分 类 , 解决 了 MS 算法 
对 于 LFA 流量 分 类 不 明显 的 问题 ;b) 提 出 了 基于 MS-KNN 算 
法 的 LFA 检测 方法 ,将 改进 的 MS 算法 和 KNN 算法 相 结 合 ， 
以 改进 的 MS 算法 的 输出 作为 KNN 算法 的 输入 ， 通 过 网 格 
搜索 和 交叉 验证 寻找 最 优 参数 得 到 最 优 检 测 结果 ; c) 在 真人 
的 SDN 环境 下 进行 实验 ， 相 关 数 据 证 实 了 MS-KNN 的 有 效 
性 ， 且 相 较 于 传统 的 KNN 算法 ，MS-KNN 算法 具有 更 高 的 
召回 率 (True Positive Rate，TPR)、 精 确 率 (Positive predictive 
value, PPV)、 准 确 率 (Accuracy, ACC) 和 更 低 的 假 阳 性 率 (False 
Positive Rate, FPR). 


1 MS-KNN 算法 


1.1 MS 算法 原理 
MS 算法 [3 利用 概率 密度 的 梯度 来 寻找 局 部 最 优 。 通 过 


损伤 概率 的 LEA 检测 。 度量 的 计算 考虑 网 络 中 所 有 节点 对 


定义 核 函 数 ， 使 得 随 着 样本 与 被 偏 移 点 的 距离 不 同 ， 其 偏 移 


间 的 最 短路 径 ， 在 庞大 的 网 络 中 需要 一 个 巨大 的 计算 周期 。 
文献 [15] 提 出 了 LinkScope。LinkScope 使 用 逐 跳 和 端 到 端 网 
络 测量 方法 检测 LFA 攻击 , 但 是 它 需 要 部 署 许 多 额外 的 探测 
点 ,探测 点 必须 跨 网 络 部 署 ,这 在 巨大 的 网 络 中 资源 开销 大 。 
探测 进度 取决 于 前 一 天 的 网 络 流量 ， 这 会 在 网 络 中 引入 额外 


量 对 均值 偏 移 向 量 的 贡献 不 同 。 最 典型 的 核 函 数 为 高 斯 核 与 
Epanechnikov 核 P33。 通 过 定义 权重 系数 ， 使 得 不 同样 本 点 的 
重要 性 不 一 样 ， 由 此 扩展 了 MS 的 应 用 范围 。 
给 定 个 nn 数据 点 , 分 布 在 4 维 欧式 空间 Re ， 有 多 变量 核 


的 流量 。 文献 [16] 提 出 了 Woodpecker, 其 使 用 增 量 SDN 部 署 
来 缓解 LFA。 拥塞 检测 模块 应 安装 在 所 有 SDN 节点 上 , 但 是 
所 有 节点 可 能 不 具备 可 编程 特性 和 安装 模块 的 内 存 。 同 样 ， 
文献 [17] 提 出 了 软件 定义 蜜 网 。 充 分 利用 了 SDN 全 局 视图 的 
无 势 来 推断 连接 蜜 网 的 潜在 蜜 节点 ， 增 加 了 攻击 者 的 攻击 成 
本 。 然 而 ， 该 方案 没有 考虑 到 属性 的 重要 性 ， 而 这 些 属性 可 
以 准确 定位 现实 世界 基础 设施 中 的 瓶颈 ， 并 且 缺 乏 额外 的 图 
指标 来 智能 选择 蜂蜜 节 点 。 
虽然 SDN 架构 在 网 络 安全 方面 的 创新 具有 一 些 明 显 的 
好 处 ， 被 认为 适用 于 当今 网 络 的 高 带宽 和 动态 环境 08-20， 但 
是 由 于 LFA 的 特性 , 仅仅 使 用 SDN 架构 并 不 足以 检测 LFA。 

KNN(K Nearest Neighbon20， 即 K- 近 邻 算 法 ， 是 一 种 惰 
性 学 习 法 。 其 基本 思想 为 :， 先 计算 待 分 类 样本 与 已 知 类 别 的 
训练 样本 之 间 的 距离 或 相似 度 ， 找 到 距离 或 相似 度 与 待 分 类 
样本 数据 最 近 的 上 个 邻居 ， 再 根据 这 些 邻 居所 属 的 类 别 来 判 
断 待 分 类 样本 数据 的 类 别 。 所 以 对 于 网 络 数据 的 分 类 ，KNN 
了 较 高 的 准确 度 与 精确 度 。 然 而 , KNN 算法 针对 大 数据 的 
分 类 问题 ， 存 在 如 下 缺点 : D) 对 每 一 个 待 分 类 的 文本 都 要 计 
算 它 到 全 体 已 知 样本 的 距离 ， 才 能 求 得 它 的 K 个 最 近邻 点 ， 
而 面 对 大 量 的 网 络 数 据 ， 计 算 全 体 样本 间 的 距离 会 产生 巨大 
的 开销 ; 2) 在 决定 测试 样本 的 类 别 时 ， 该 算法 只 计算 最 近 令 
的 样本 ， 而 当面 临 大 规模 网 络 数据 时 ， 数 据 之 间 特 征 的 不 明 
显 会 使 分 类 结果 产生 偏差 。 

聚 类 算法 是 一 种 无 监督 学 习 算法 ， 其 主要 功能 是 降 维 。 
LFA 攻击 流量 容易 隐藏 在 正常 的 网 络 流量 中 ， 为 了 在 大 量 数 
据 中 有 效 发 现 LFA 攻击 的 存在 ,需要 聚合 相似 数据 , 减少 需 
要 分 析 的 数据 量 。 

Mean Shift (MS) 算 法 22 是 一 种 基于 无 监督 学 习 的 聚 类 算 
法 ， 不 需要 预先 提供 聚 类 中 心 的 数量 。 网 络 数据 可 以 分 为 一 
个 或 多 个 集群 ， 
但 MS 算法 没有 考虑 数据 的 各 种 属性 对 分 类 的 贡献 程度 ， 导 
聚 类 结果 不 满意 。 因 此 ， 如 何 针对 某 类 数据 设置 权 值 对 聚 


通过 分 析 该 集群 的 特征 来 识别 LFA 的 存在 。 


密度 估计 的 核 X(x)， 对称 正定 带宽 矩阵 #H， 在 点 x 得 到 的 核 
密度 估计 为 P34: 


J- eee (1) 
nnd E h 
其 中 ， 核 函数 K (x) P4 满 足 
K= C, ak ) 2) 
其 中 ，Cw 是 一 个 标准 化 常数 ， 它 保证 (x) 积分 到 1。 核 密度 
估计 在 式 (1) 中 的 梯度 为 
2C xox]? 
bd i 
ue a at ; | 
5 aD 
DEA ) (3) 
x=, 2 
r= 184— ) 
n 
均值 漂移 向 量 由 式 (3) 得 出 
二 2 
Bs) 
m= eit -x (4) 
Erg 7 ) 


均值 漂移 矢量 总 是 指向 密度 最 大 增长 的 方向 。 均 值 移 动 
后 续 过 程 迭 代 形 成 的 : 

a) 计 算 均 值 漂 移 向 量 四 (5D 。 

b) 转 换 新 的 中 心 点 vin =| (+X 。 

MS 算法 使 用 的 欧 氏 距离 将 数据 属性 之 间 的 差别 等 
待 , 这 一 点 不 能 满足 实际 要 求 。 因此 , 根据 数据 属性 的 重要 性 ， 
赋予 不 同 的 权重 ， 使 欧式 距离 优化 为 加 权 欧 式 距 离 ， 以 提高 聚 
类 性 能 。 两 点 间 的 加 权 欧 氏 距 离 在 d 维 欧 氏 空间 可 定义 


pany 


x, -Xx 


i 


D(x.,x.)= 
| 


其 中 ， w(K=1,2,.…,4) 为 权重 。 
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在 本 文中 ，MS 新 的 中 心 点 由 式 (3) 和 (5) 给 出 


2 
xX, =x 
ik k 
h 


EPL yx sD, ) 


Aor 2 (6) 


i xX, -x 
n list 
Ua 18h a1 


) 


H, ZERO, h 为 核 带宽 ， sO 为 核 函 数 ，w 为 第 上 个 属 
性 的 权重 系数 。 
式 (5) 可 知 ,， 权重 系 数 对 于 下 一 个 中 心 点 的 计算 至 关 重 
要 , 对 聚 类 性 能 有 较 大 影响 。 由 于 LFA 的 特殊 性 , 传统 的 MS 
算法 体现 出 了 明显 的 不 足 。 鉴 于 此 ， 本 文 对 检测 LFA 的 MS 
算法 进行 了 优化 ,即使 用 加 权 欧 氏 距 离 蔡 代 传统 的 欧 氏 距离 ， 

采用 延 时 率 作为 加 权 欧 氏 距 离 的 权重 系数 。 

当 网 络 中 LFA 攻击 发 生 后 , 被 攻击 链 路 负载 会 明显 增加 ， 
所 以 正常 数据 包 和 LFA 的 攻击 数据 包 时 间 变 化 量 会 有 显著 
不 同 。 其 中， 正常 数据 包 时 延 低 且 分 布 离散 ， 而 LEFA 的 数据 
包 时 延 高 且 分 布 连续 。 
在 给 定 的 时 间 周 期 7 内 ， 主 链 路 中 获取 的 数据 包 时 延 率 
T, 定义 为 式 (7): 


并 


r Eora (7) 


其 中 ， 1 为 数据 包 的 个 数 。 
因此 在 一 个 时 间 周 期 7 内 ， 网 络 中 数据 包 的 延 时 率 越 大 ， 
RÆ LFA 的 可 能 性 越 大 。 
1.2 KNN 算法 原理 
KNN 算法 5 基本 步骤 如 下 : 
a) 计 算 样本 之 间 的 距离 ; 
b) 将 得 到 的 未 知 样本 和 训练 样本 之 间 的 距离 的 递增 关系 
进行 排序 ; 
c) 选 取 距 离 最 小 的 上 个 点 ; 
d) 确 定 前 大 个 点 所 在 类 别 的 出 现 频 率 ; 
e) 选 择 出 现 频率 最 多 的 类 别 作为 未 知 样本 的 类 别 。 
KNN 算法 的 实现 取决 于 未 知 样本 和 训练 样本 的 “距离 ”。 
本 文中 使 用 的 “距离 ”是 欧 氏 距离 ， 由 式 (5) 给 出 
1.3 基于 MS-KNN 算法 的 LFA 检测 方法 
鉴于 MS 算法 以 及 KNN 算法 的 各 种 优良 性 能 ,将 MS 算 
法 与 KNN 算法 相 结 合 ， 得 到 可 用 于 LFA 攻击 有 效 检测 的 
MS-KNN 方法 。 其 主要 步骤 如 下 ， 见 图 1。 
a) 对 数据 集中 进行 预 处 理 ， 包 括 数据 清理 和 标准 化 ; 
b) 初 始 化 参数 ; 
c) 将 数据 粗 粒 化 , 避免 非常 近 的 样本 点 都 作为 起 始 质心 ， 
获取 可 以 作为 起 始 质心 的 点 ; 
dd) 计算 均值 点 到 每 个 样本 点 的 欧 氏 距离 与 高 斯 核 ; 
e) 计 算 权 重 ; 
人 进行 一 次 独立 的 均值 漂移 ， 计算 下 一 个 漂移 点 的 坐标 ; 
根据 最 近邻 将 数据 分 类 到 最 近 的 簇 中 ， 得 到 个 簇 ; 
hb) 将 得 到 的 个 复 作 为 输入 ， 利 用 网 格 搜索 史 与 交叉 验证 Pa 
得 到 每 个 簇 使 用 KNN 算法 的 最 优 k 值 `. 最 优 权 重 和 最 优 实现 方法 ; 
i) 利 用 得 到 的 最 优 KNN 算法 ,分 析 每 个 簇 ,得 到 分 析 结 果 。 
MS-KNN 的 时 间 复 杂 度 与 空间 复杂 度 , 及 其 与 MS、KNN 
的 比较 如 表 1 Atos. EP, n AAR, TAKE, 
k 为 单个 样本 特征 维度 。 
2 ”实验 与 分 析 
2.1 实验 环境 的 构建 
首先 本 文 根 据 文献 [2] 设 计 了 一 个 小 型 网 络 ,如 图 2 所 示 。 
该 网 络 有 2 台 配 备 Intel Core i7-10700 2.90GHz 8 核 处 理 
器 和 16GB 内 存 的 计算 机 作为 倪 偶 机 ;， 同 时 选择 了 5 台 配 备 
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Intel Core i5-8400 2.80GHz 6 核 处 理 器 和 16GB 内 存 的 计算 机 
作为 正常 用 户 。 为 了 保证 它们 之 间 的 带宽 足够 高 ， 本 文选 择 
了 三 台 型 号 为 EdgeCore AS4610-54P 的 千 兆 以 太 网 交换 机 作 
为 转发 设备 ,这 些 交 换 机 为 支持 OpenFlow 协议 的 SDN 交换 
机 。 控 制 器 方面 ， 本 文选 择 了 RYU 控制 器 。 本 文 将 RYU 控 
制 器 部 署 在 配备 2 个 Intel(R) Xeon(R) Gold 6248R 3.00GHz 
48 核 处 理 器 和 128G 内 存 的 服务 器 上 。 该 服务 器 被 用 作 整 个 
网 络 的 控制 平面 ， 控 制 机 器 人 产生 攻击 流量 ， 并 实现 整个 网 
络 的 数据 收集 。 完 成 数据 收集 后 ， 控 制 平面 在 数据 中 混合 来 
自 合 法 终端 主机 的 流量 特征 ， 以 生成 最 终 数据 集 并 进行 实验 
分 析 。 本 文 所 有 实验 通过 控制 器 统一 分 配 40 核 处 理 器 并 行 
运算 得 到 分 析 结 果 ， 其 中 包括 数据 集 的 聚 类 、 网 格 搜 索 、 交 
又 验证 以 及 最 终 的 数据 分 析 。 
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计算 漂移 点 坐标 
E 天 于 到 到! 


合并 相似 点 


交叉 验证 


7 SE KNN 算 法 实现 方式 
k 值 选择 KNN 算 法 权重 选择 pie 


CAR ) 
图 1 基于 MS-KNN 方法 的 LFA 攻击 检测 流程 图 
Fig. 1 Flowchart of LFA attack detection based on MS-KNN method 
R1 MS, KNN 和 MS-KNN 的 时 间 复 杂 度 与 空间 复杂 度 
Tab. 1 Time complexity and space complexity of MS, KNN and MS-KNN 


算法 时 间 复 杂 度 空间 复杂 度 
MS O(Tn’) O(Tn’) 
KNN O(n* k) O(n *k) 
MS-KNN O(Tn +n*k) O(In’ +n*k) 
戴尔 塔 式 服务 器 
(SDN 控制 平面 
SDN 交 换 机 
关键 区 域 
数据 收集 | | 下 发 规则 诱 包机 


SDN 交 换 机 


Link Flooding 
Attack (LFA) 


图 2 构建 的 局 域 网 拓扑 图 
Fig.2 Topology diagram of the constructed LAN 
2.2 数据 集 
来 自 合法 终端 主机 的 流量 :CIC-IDS2017P9 是 加 拿 大 网 络 安 
全 研究 所 构建 的 能 够 可 靠 测 试 和 验证 的 数据 集 ， 如 表 2 所 示 。 
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表 2 CIC-IDS2017 信息 示 了 当 在 统一 权重 下 蛮 力 实现 , 当 k 值 为 3 时 ，TPR、PPV、 

Tab.2 Information for CIC-IDS2017 ACC 分 别 达 到 了 79.66%、96.89%、94.98%，FPR 降低 到 了 

期 活动 描述 攻击 类 型 0.72%。 相 较 于 图 4b)， 图 4(c) 虽 然 在 TPR, PPV. ACC 这 三 

星期 正常 活动 无 个 指标 上 略 有 不 足 ， 但 具有 更 低 的 FPR. Al 4(d-f) 的 数据 显 
星期 二 攻击 、 正 常 活动 蛮 力 攻击 示 了 在 距离 倒数 的 权重 下 分 别 用 三 种 方法 实现 KNN 算法 对 
星期 三 攻击 、 正 常 活动 DDoS 攻击 数据 的 评估 。 实 验 结果 表明 ， 图 4(d-f) 都 具有 较 高 的 TPR、 
星期 四 攻击 、 正 常 活动 Web 攻击 PPV, ACC. Al 4(d) 的 数据 显示 了 当 在 距离 倒数 权重 下 使 用 
星期 五 攻击 、 正 常 活动 DDoS 攻击 kd WATER), “4k 值 为 19 时 ，TPR、PPV、ACC 分 别 达 到 
该 数据 集 包含 良性 和 最 新 的 常见 攻击 ， 类 似 于 真实 的 真 了 98.57%, 97.23%, 96.69%, FPR 降低 到 了 10.01%; 图 4(e) 


实 世 界 数据 (PCAP)。 它 还 包括 使 用 CICFlowMeter 和 基于 的 数据 显示 了 当 在 距离 倒数 权重 下 使 用 球 树 方法 ，k 值 为 15 

源 和 目标 IP、 源 和 目标 端口 、 协 议和 攻击 (CSY 文 时 ， 此 时 的 TPR、PPY、ACC 分 别 达到 了 89.92%、89.79%、 
个) 标记 流 的 网 络 流量 分 析 结 果 。 考 虑 到 它 不 包含 LFA iit, 95.55%, FPR 降低 到 了 2.87%; 图 4(f) 的 数据 显示 了 当 在 中 
本 文 只 使 用 它 的 合法 流 ,提取 星期 一 合法 终端 主机 的 特征 集 ， 离 倒数 权重 下 使 用 球 树 方法 ， 当 k 值 为 49 时 ，TPR、PPV、 
并 将 其 标记 为 正 。 ACC 分 别 达 到 了 97.06%, 97.19%, 95.51%, FPR 降低 到 了 


ENDL ob LFA 的 流量 :由 于 LFA 到 目前 为 止 没有 公共 10.01%。 相 较 于 图 4(d) 和 图 4(f), 图 4(e) 虽 然 在 TPR, PPV, 

数据 集 ， 所 以 本 文 基于 论文 中 模拟 LFA 来 构建 该 数据 集 。 ACC 这 三 个 指标 上 略 有 不 足 ， 但 具有 更 低 的 FPR。 
200s 内 具有 LFA 流量 的 网 络 状态 如 图 3 所 示 。 在 20s-80s 时 ， rp _ EBD ITER HEA (8) 
网 络 遭 受 LFA， 此 时 的 网 络 吞 吐 量 增加 ， 波 动 明显 。80s-135s， 正 类 样本 总 数 
LFA 攻击 流量 减少 ， 网 络 处 于 较 安 全 状态 ， 此 时 网 络 吞 吐 量 减 ppp _ RBIS RA O) 
少 且 波动 不 大 。135s-185s，LFA 攻击 流量 增加 ， 网 络 吞吐 量 再 负 关 样本 总 数 
次 增加 且 波 动 较 大 。185s 之 后 出 于 安全 状态 ， 网 络 缓慢 恢复 。 ppy _ 下 类 被 分 类 为 正 类 样本 数 (10) 

seo 被 分 类 为 正 类 样本 数 

1800 4 ace = Ziemann (11) 

样本 总 数 


表 3 给 出 了 使 用 不 同 的 数据 结构 和 不 同 的 权重 实现 
KNN 算法 对 该 数据 集 进 行 初步 评估 的 时 间 消 耗 , 本 文 发 现 使 
用 kd 树 实现 所 需 的 时 间 最 少 , 蛮 力 实现 所 需 的 时 间 最 多 , 球 
树 介 于 两 者 之 间 。 

数据 显示 ， 仅 仅 使 用 KNN 算法 分 析 数 据 集 ， 虽 然 对 于 

检测 LFA 具有 较 好 的 效果 ， 然 而 会 带 来 较 高 的 FPR， 而 且 检 
o o a a o mw mw w h io 测 需要 很 长 的 时 间 。 为 了 降低 FPR 以 及 检测 时 间 ， 本 文 利 用 


ti MS-KNN 方法 首先 对 数据 集 进行 聚 类 处 理 , 将 整个 数据 集 划 

图 3 ”数据 集中 200s 内 包含 LFA 流量 的 网 络 吞 吐 量 状态 DANES, 减少 数据 量 从 而 减少 检测 时 间 ; 然后 对 每 个 簇 
Fig. 3 Network throughput status containing LEA traffic within 200s of the dataset 使 用 网 格 搜索 和 交叉 验证 选取 最 优 参数 ， 最 后 利用 最 优 参数 
2.3 ”实验 结果 与 分 析 分 析 每 个 徐 ， 得 到 最 优 结果 ， 降 低 FPR。 同 时 为 了 减少 数据 
为 了 使 用 不 同 的 数据 结构 和 不 同 的 权重 实现 KNN 算法 集 对 实验 结果 的 影响 ， 本 文 去 掉 了 源 地 址 、 目 的 地 址 等 相关 


本 文 将 数据 集 按 照 70%/30% 的 比 ”特征 ， 用 协议 、 包 长 度 等 特征 进行 实验 。 


对 该 数据 集 进行 初步 评估 


例 划 分 为 训练 集 和 测试 集 ， 通 过 TPR, FPR, PPV 和 ACC 4 通过 网 格 搜索 和 不 同 交叉 验证 法 获得 每 个 艇 的 最 优 参数 。 
个 指标 进行 对 比 ， 结 果 如 图 4 所 示 。 其 中 ， 图 4(a-c) 的 数据 结果 表明 无 论 是 二 折 交 叉 验 证 法 ， 五 折 交 叉 验 证 法 ， 还 
显示 了 在 统一 权重 下 分 别 用 三 种 方法 实现 KNN 算法 对 数据 是 十 折 交 叉 验 证 法 ， 网 格 搜索 的 最 优 KNN 算法 的 实现 方法 


的 评估 。 实验 结 果 表明 , 图 4(b) 和 图 4(c) 的 效果 优 于 图 4(a)。 都 是 球 树 方法 ， 权 重 基 本 都 是 统一 权重 ， 仅 在 十 折 交 叉 验 证 
图 4(b) 的 数据 显示 了 当 在 统一 权重 下 使 用 球 树 方法 2831， 当 k ”法 下 的 第 一 个 徐 的 权重 为 距离 的 倒数 。 对 应 的 在 不 同 交 叉 验 
值 为 10 时 ， 此 时 的 TPR、PPV、ACC 分 别 达 到 了 98.92%、 证 发 法 下 ， 每 个 簇 消耗 的 时 间 如 图 5 所 示 。 因 此 ， 本 文 使 用 
96.98%、96.75%，FPR 降低 到 了 10.99%; 图 4(c) 的 数据 显 的 最 优 参数 ,权重 选择 为 统一 权重 , 实现 方法 选择 球 树 方法 。 


100 统一 权重 下 使 用 kd 树 实现 ii 统一 权重 下 使 用 球 树 实现 统一 权重 下 变 力 实现 
本 904 qo | sanessesensnnncnssnsssssesngqeeeresencesescannen 
80 A aaa ss sss ss sss hassa 84 804 4 
74 So 704» 704 ad 
4 2 04 2 604 
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@ -san sananaannnadtatttnaiiiddi 0 上 让 = 0 | -------==f=aaazazzzfzzxzzzzxzfrrrrrrrrrfrrrrrrrrry | 
0 5 10 15 20 2 30 35 40 45 50 0 10 20 30 40 50 0 10 20 30 40 50 
(a) k 值 ©) k 值 (c) k 值 
= 距离 倒数 的 权重 下 使 用 kd 树 实现 i 距离 倒数 的 权重 下 使 用 球 树 实现 ne BSHAHLS PRAM 
904 T 90 | verevevenrereycrcscsssssssssssssnssntantanensess 904 
80 B04 assasasaaaad 80 
741 ™ 70 4 70 ] 
= 04 k 2 a4 = 60 
50 50 50 
$] \ $40 k es 
304 " 30 304 very 一 假 阳性 率 
20 WA 20 20 - MRF 
104 WEEP 104 10 w —=— 准 确 率 
oh T T T r r 0 -zzzzzzz2z32fz223Y77Y7T77777Y77777777777777777 YY YY7 | 0d r 中 T r 
0 10 20 30 40 50 0 10 20 30 40 50 0 10 20 30 40 
(d) k 值 (e) k 值 (f) k 值 


图 4 分 别 在 统一 权重 和 距离 倒数 权重 下 使 用 kd 树 、 球 树 和 蛮 力 方法 实现 KNN 算法 对 数据 的 初步 评估 
Fig.4 Initial evaluation of data by KNN algorithm using kd tree, ball tree and brute force methods under uniform weight and distance inverse weight, respectively 
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表 3 KNN 算法 不 同 实现 方式 处 理 数据 的 时 间 比 较 
Tab.3 Comparison of the time to process data for different 


implementations of the KNN algorithm 


权重 方法 时 间 /s 

kd 树 59.84 

统一 权重 球 树 117.99 
蛮 力 实现 722.22 

kd 树 49.58 

距离 的 倒数 球 树 104.48 
蛮 力 实现 715.32 


I 


图 6 和 7 显示 了 MS-KNN 方法 对 数据 集 的 最 终 检 测 效 果 。 
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3 


络 区 域 断 开 等 严重 危害 。 本 文 提 出 了 MS-KNN 方法 , 该 方法 
千 统 的 MS 算法 的 欧 氏 距离 变换 为 加 权 欧 氏 距 离 ， 利 用 数 


将 


据 包 延 时 率 作为 加 权 欧 氏 距离 的 
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针对 关键 链 路 的 链 路 泛 洪 攻 击 会 造成 链 路 拥塞 和 


标 网 


加 权 系 数 来 优化 聚 类 性 能 ， 


提高 了 聚 类 效果 。 此 外 ， 通 过 网 格 搜索 和 交叉 验证 法 选取 


KNN 算法 的 最 优 参数 来 分 析 LFA 数 ] 


ER. KARKA, 


MS-KNN 方法 对 于 检测 LFA 数据 集 不 仅 有 较 高 的 TPR、PPV 
和 ACC， 而 且 还 有 较 低 的 FPR 和 检测 时 间 。 


本 文 提 出 的 方法 在 针对 LFA 检测 中 取得 了 良好 的 效果 ， 


图 6 给 出 了 各 个 艇 的 4 个 评价 指标 , TPR、PPV 和 ACC 均 达 到 


了 99% 以 上 ，FPR 降低 到 了 1% 一下， 其 中 TPR、PPV 和 ACC 
最 高 分 别 达到 了 99.99%、99.95%、99.98%，FPR 最 低 达 到 了 


0.05%。 图 7 给 出 了 各 个 簇 使 用 MS-KNN 的 检测 时 间 ， 相 较 了 


但 是 还 存在 一 些 不 足 : 在 未 来 的 工作 中 ， 将 构建 更 加 复杂 的 


网 络 环境 ， 在 更 加 
息 特 征 。 同 时 ， 还 将 致力 于 而 


天 的 物理 环境 中 研究 全 面 的 网 络 流量 信 
究 如 何 实时 动态 的 检测 网 络 流 


t 


表 1 KNN 算法 对 数据 集 的 处 理 时 间 ，MS-KNN 大 大 减少 了 


检测 所 需要 的 时 间 。 综 合 数据 表明 ， 相 较 于 传统 的 KNN 算法 ， 


MS-KNN 方法 在 用 于 LFA 检测 方面 不 仅 取 得 了 更 高 的 TPR、 
PPV 和 ACC， 以 及 更 低 的 FPR， 而 且 大 大 的 减少 了 时 间 开 销 。 
Si 不 同 交 叉 验证 法 下 每 个 簇 消耗 的 时 间 
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图 5 二 折 交 又 验 证 法 ， 五 折 交 叉 验证 法 和 十 折 交 又 验 证 法 下 


每 个 簇 消耗 的 时 间 
Fig. 5 Time consumed per cluster under two-fold cross-validation, 


five-fold cross-validation and ten-fold cross-validation methods 


+ 召回 率 Y- 假 阳性 率 


* 精确 率 


RE 


比率 (%) 


图 6 每 个 簇 在 最 优 参 数 下 使 


| MS-KNN 的 最 优 评估 


Fig. 6 Optimal evaluation of each cluster under optimal parameters using MS-KNN 


n a i 4 
e- MS-KNN, MS_time=54. 475 


时 间 (s) 
A 


R 


7 各 个 艇 使 用 MS-KNN 的 检测 时 间 
Fig.7 Detection time of each cluster using MS-KNN 


4 
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步 验 证 LFA 检测 方法 的 实用 性 。 
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